Source | # of sentences | Average logarithmic rank |
---|---|---|
http://arz.wikipedia.org/wiki/سينما_مصريه | 13 | 5.28 |
http://arz.wikipedia.org/wiki/الظاهر_تمربغا | 15 | 5.40 |
http://arz.wikipedia.org/wiki/مصر_فى_العصور_الوسطى | 77 | 5.40 |
http://arz.wikipedia.org/wiki/ابن_زولاق | 13 | 5.40 |
http://arz.wikipedia.org/wiki/ناصر_الدين_حسن_(فترة_حكم_تانيه) | 37 | 5.40 |
http://arz.wikipedia.org/wiki/جيش_مصر_فى_العصر_المملوكى | 51 | 5.41 |
http://arz.wikipedia.org/wiki/دار_الكتب_و_الوثائق_القوميه | 13 | 5.42 |
http://arz.wikipedia.org/wiki/مؤرخين_مصر_فى_العصر_الحديث | 20 | 5.42 |
http://arz.wikipedia.org/wiki/الشرق_الاوسط | 11 | 5.43 |
http://arz.wikipedia.org/wiki/الجيش_المصرى | 78 | 5.46 |
http://arz.wikipedia.org/wiki/تحوتمس_الرابع | 11 | 5.48 |
http://arz.wikipedia.org/wiki/نعمان_عاشور | 12 | 5.48 |
http://arz.wikipedia.org/wiki/بطليموس_التاسع_(فترة_حكم_تانيه) | 30 | 5.49 |
http://arz.wikipedia.org/wiki/المماليك_المصرليه | 13 | 5.51 |
http://arz.wikipedia.org/wiki/السيوطى | 12 | 5.51 |
http://arz.wikipedia.org/wiki/سهيل_زكار | 16 | 5.53 |
http://arz.wikipedia.org/wiki/بطليموس_الرابع | 35 | 5.53 |
http://arz.wikipedia.org/wiki/القاهره | 11 | 5.54 |
http://arz.wikipedia.org/wiki/الاسامى_المملوكيه | 14 | 5.54 |
http://arz.wikipedia.org/wiki/معاهدة_فردريك_-_الكامل | 17 | 5.54 |
http://arz.wikipedia.org/wiki/على_بيك_الكبير | 59 | 5.55 |
http://arz.wikipedia.org/wiki/الناصر_محمد_بن_قايتباى | 21 | 5.55 |
http://arz.wikipedia.org/wiki/قطز | 19 | 5.56 |
http://arz.wikipedia.org/wiki/اسرة_محمد_على | 13 | 5.56 |
http://arz.wikipedia.org/wiki/تاريخ_مصر_القبطيه | 282 | 5.56 |
http://arz.wikipedia.org/wiki/صلاح_الدين_حاجى | 17 | 5.56 |
http://arz.wikipedia.org/wiki/الدوله_الطولونيه | 14 | 5.57 |
http://arz.wikipedia.org/wiki/بطليموس_التامن_(قبل_145_ق.م) | 23 | 5.57 |
http://arz.wikipedia.org/wiki/التعدى_على_مكاتب_امن_الدوله_فى_مصر_2011 | 11 | 5.57 |
http://arz.wikipedia.org/wiki/مؤرخين_مصر_فى_العصور_الوسطى | 38 | 5.57 |
Source | # of sentences | Average logarithmic rank |
---|---|---|
http://arz.wikipedia.org/wiki/مقالات_باللاتينى | 12 | 9.74 |
http://arz.wikipedia.org/wiki/الليله_الكبيره | 26 | 8.41 |
http://arz.wikipedia.org/wiki/لستة_المخترعين_والمكتشفين | 112 | 8.07 |
http://arz.wikipedia.org/wiki/ديموغرافيا_السكان_فى_مصر | 13 | 8.06 |
http://arz.wikipedia.org/wiki/جون_الدمشقى | 13 | 7.96 |
http://arz.wikipedia.org/wiki/سعيد_صالح | 16 | 7.91 |
http://arz.wikipedia.org/wiki/لسته_المتحولين_للمسيحية | 17 | 7.74 |
http://arz.wikipedia.org/wiki/ادم_حنين | 16 | 7.60 |
http://arz.wikipedia.org/wiki/لسته_المسلمين_السابقين | 13 | 7.59 |
http://arz.wikipedia.org/wiki/كاس_الخليج | 21 | 7.58 |
http://arz.wikipedia.org/wiki/روايه | 16 | 7.56 |
http://arz.wikipedia.org/wiki/تاريخ_السجاير_فى_مصر | 18 | 7.56 |
http://arz.wikipedia.org/wiki/تخن | 11 | 7.55 |
http://arz.wikipedia.org/wiki/ستيف_اوستن | 12 | 7.49 |
http://arz.wikipedia.org/wiki/حاجه_غريبه | 11 | 7.48 |
http://arz.wikipedia.org/wiki/مرض_السكر | 14 | 7.48 |
http://arz.wikipedia.org/wiki/ذكريات_(اغنيه) | 11 | 7.47 |
http://arz.wikipedia.org/wiki/بلازما_(فيزيا) | 16 | 7.39 |
http://arz.wikipedia.org/wiki/صالح_جودت | 11 | 7.37 |
http://arz.wikipedia.org/wiki/قمر_جديد | 29 | 7.35 |
http://arz.wikipedia.org/wiki/ديانات_دارميه | 17 | 7.32 |
http://arz.wikipedia.org/wiki/فاقوس | 11 | 7.29 |
http://arz.wikipedia.org/wiki/دهب | 20 | 7.29 |
http://arz.wikipedia.org/wiki/نيكولاوس_كوبرنيكوس | 29 | 7.28 |
http://arz.wikipedia.org/wiki/ريچييم | 11 | 7.27 |
http://arz.wikipedia.org/wiki/جاذبية_سرى | 35 | 7.26 |
http://arz.wikipedia.org/wiki/الحسين_(حى) | 13 | 7.25 |
http://arz.wikipedia.org/wiki/قاعدة_بيانات | 11 | 7.25 |
http://arz.wikipedia.org/wiki/نيقولاى_جوجول | 53 | 7.24 |
http://arz.wikipedia.org/wiki/البوسته_المصريه | 11 | 7.23 |
In this subsection we replace average word length by average logarithmic word rank. The logarithm of the word rank is taken because we want to punish words of high ranks only moderately.
First table:
select source, count(distinct i_s.s_id) as cnt_s, round(avg(log(w.w_id-100)),2) as av from sources so, inv_so i_s, inv_w i, words w where so.so_id=i_s.so_id and i_s.s_id=i.s_id and i.w_id=w.w_id and w.w_id>100 group by source having cnt_s>10 order by av LIMIT 30;
6.4.2.1 Average word length for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words